Pour s'autocorriger, les LLM ont-ils besoin d'un compagnon ? | Silicon

Clément Bohic - Silicon - 22/11
Des chercheurs proposent d'améliorer les capacités d'autocorrection des LLM par une méthode de backtracking fondée sur un modèle auxiliaire.

Pour améliorer les capacités d’autocorrection des LLM, le retour sur trace (backtracking) peut-il être une alternative à l’apprentissage par renforcement ? Des chercheurs de l’université de Cambridge et de Google Research se sont penchés sur le sujet.

À la racine de leur démarche, une étude démontrant que les mécanismes d’autocorrection des erreurs de logique ou de raisonnement a tendance à dégrader la qualité des réponses des LLM.

La solution proposée repose sur un modèle auxiliaire « léger » de type classifieur. Celui-ci détecte les erreurs dans les traces et alimente le LLM en conséquence, sans modification des poids (il indique en l’occurrence l’emplacement des erreurs)...
[Courte citation de 8% de l'article original]

Loading...